异常值 - 识别和处理数据中的极端值
定义:异常值是明显偏离其他数据点的观测值,可能是由于测量错误、数据录入错误或真实的极端情况。
特点:
四分位距法(IQR方法):
• 下界 = \(Q_1 - 1.5 \times IQR\)
• 上界 = \(Q_3 + 1.5 \times IQR\)
• 超出上下界的数据点被认为是异常值
题目:某班级学生数学成绩如下,使用IQR方法识别异常值。
45, 52, 58, 61, 63, 65, 67, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 98, 25
步骤1:计算四分位数
• 数据排序:25, 45, 52, 58, 61, 63, 65, 67, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 98
• \(n = 21\)
• \(Q_1\) 位置:\(\frac{21}{4} = 5.25\),取第6位:\(Q_1 = 63\)
• \(Q_3\) 位置:\(\frac{3 \times 21}{4} = 15.75\),取第16位:\(Q_3 = 85\)
步骤2:计算IQR和界限
• \(IQR = Q_3 - Q_1 = 85 - 63 = 22\)
• 下界 = \(63 - 1.5 \times 22 = 63 - 33 = 30\)
• 上界 = \(85 + 1.5 \times 22 = 85 + 33 = 118\)
步骤3:识别异常值
• 25 < 30,所以25是异常值
• 其他数据都在30-118范围内,不是异常值
题目:比较包含和排除异常值25后的统计量变化。
包含异常值25:
• 均值:\(\bar{x} = \frac{25 + 45 + 52 + \cdots + 98}{21} = \frac{1425}{21} \approx 67.86\)
• 中位数:第11位数据 = 72
排除异常值25:
• 均值:\(\bar{x} = \frac{45 + 52 + 58 + \cdots + 98}{20} = \frac{1400}{20} = 70\)
• 中位数:第10、11位数据的平均值 = \(\frac{70 + 72}{2} = 71\)
影响分析:
• 均值从67.86增加到70,变化较大
• 中位数从72变为71,变化较小
某公司员工年龄数据如下:
22, 24, 25, 26, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 42, 45, 48, 65
使用IQR方法识别异常值,并说明65岁是否应该被删除。
答题区域:
某班级学生体重(kg)数据:
45, 48, 50, 52, 54, 55, 56, 58, 60, 62, 64, 65, 66, 68, 70, 72, 74, 76, 78, 80, 120
计算包含和排除异常值120后的均值和中位数,并分析影响。
答题区域:
某商店日销售额(元)数据:
100, 120, 150, 180, 200, 220, 250, 280, 300, 320, 350, 380, 400, 420, 450, 480, 500, 520, 550, 580, 50, 1000
识别所有异常值,并分析它们对数据分布的影响。
答题区域:
解答过程:
步骤1:计算四分位数
• 数据排序:22, 24, 25, 26, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 42, 45, 48, 65
• \(n = 21\)
• \(Q_1\) 位置:\(\frac{21}{4} = 5.25\),取第6位:\(Q_1 = 29\)
• \(Q_3\) 位置:\(\frac{3 \times 21}{4} = 15.75\),取第16位:\(Q_3 = 39\)
步骤2:计算IQR和界限
• \(IQR = Q_3 - Q_1 = 39 - 29 = 10\)
• 下界 = \(29 - 1.5 \times 10 = 29 - 15 = 14\)
• 上界 = \(39 + 1.5 \times 10 = 39 + 15 = 54\)
步骤3:识别异常值
• 65 > 54,所以65是异常值
• 其他数据都在14-54范围内,不是异常值
分析:65岁可能是公司的高管或顾问,是真实的极端值,不应删除。
解答过程:
包含异常值120:
• 均值:\(\bar{x} = \frac{45 + 48 + 50 + \cdots + 80 + 120}{21} = \frac{1335}{21} \approx 63.57\) kg
• 中位数:第11位数据 = 64 kg
排除异常值120:
• 均值:\(\bar{x} = \frac{45 + 48 + 50 + \cdots + 80}{20} = \frac{1215}{20} = 60.75\) kg
• 中位数:第10、11位数据的平均值 = \(\frac{62 + 64}{2} = 63\) kg
影响分析:
• 均值从63.57 kg减少到60.75 kg,变化较大
• 中位数从64 kg减少到63 kg,变化较小
解答过程:
步骤1:计算四分位数
• 数据排序:50, 100, 120, 150, 180, 200, 220, 250, 280, 300, 320, 350, 380, 400, 420, 450, 480, 500, 520, 550, 580, 1000
• \(n = 22\)
• \(Q_1\) 位置:\(\frac{22}{4} = 5.5\),取第6、7位平均值:\(Q_1 = \frac{200 + 220}{2} = 210\)
• \(Q_3\) 位置:\(\frac{3 \times 22}{4} = 16.5\),取第16、17位平均值:\(Q_3 = \frac{450 + 480}{2} = 465\)
步骤2:计算IQR和界限
• \(IQR = Q_3 - Q_1 = 465 - 210 = 255\)
• 下界 = \(210 - 1.5 \times 255 = 210 - 382.5 = -172.5\)
• 上界 = \(465 + 1.5 \times 255 = 465 + 382.5 = 847.5\)
步骤3:识别异常值
• 50 > -172.5,不是异常值
• 1000 > 847.5,所以1000是异常值
影响分析:1000元可能是特殊促销日的销售额,显著提高了均值。